We propose Panoptic Lifting, a novel approach for learning panoptic 3D volumetric representations from images of in-the-wild scenes. Once trained, our model can render color images together with 3D-consistent panoptic segmentation from novel viewpoints. Unlike existing approaches which use 3D input directly or indirectly, our method requires only machine-generated 2D panoptic segmentation masks inferred from a pre-trained network. Our core contribution is a panoptic lifting scheme based on a neural field representation that generates a unified and multi-view consistent, 3D panoptic representation of the scene. To account for inconsistencies of 2D instance identifiers across views, we solve a linear assignment with a cost based on the model's current predictions and the machine-generated segmentation masks, thus enabling us to lift 2D instances to 3D in a consistent way. We further propose and ablate contributions that make our method more robust to noisy, machine-generated labels, including test-time augmentations for confidence estimates, segment consistency loss, bounded segmentation fields, and gradient stopping. Experimental results validate our approach on the challenging Hypersim, Replica, and ScanNet datasets, improving by 8.4, 13.8, and 10.6% in scene-level PQ over state of the art.
translated by 谷歌翻译
We present ObjectMatch, a semantic and object-centric camera pose estimation for RGB-D SLAM pipelines. Modern camera pose estimators rely on direct correspondences of overlapping regions between frames; however, they cannot align camera frames with little or no overlap. In this work, we propose to leverage indirect correspondences obtained via semantic object identification. For instance, when an object is seen from the front in one frame and from the back in another frame, we can provide additional pose constraints through canonical object correspondences. We first propose a neural network to predict such correspondences on a per-pixel level, which we then combine in our energy formulation with state-of-the-art keypoint matching solved with a joint Gauss-Newton optimization. In a pairwise setting, our method improves registration recall of state-of-the-art feature matching from 77% to 87% overall and from 21% to 52% in pairs with 10% or less inter-frame overlap. In registering RGB-D sequences, our method outperforms cutting-edge SLAM baselines in challenging, low frame-rate scenarios, achieving more than 35% reduction in trajectory error in multiple scenes.
translated by 谷歌翻译
We propose ClipFace, a novel self-supervised approach for text-guided editing of textured 3D morphable model of faces. Specifically, we employ user-friendly language prompts to enable control of the expressions as well as appearance of 3D faces. We leverage the geometric expressiveness of 3D morphable models, which inherently possess limited controllability and texture expressivity, and develop a self-supervised generative model to jointly synthesize expressive, textured, and articulated faces in 3D. We enable high-quality texture generation for 3D faces by adversarial self-supervised training, guided by differentiable rendering against collections of real RGB images. Controllable editing and manipulation are given by language prompts to adapt texture and expression of the 3D morphable model. To this end, we propose a neural network that predicts both texture and expression latent codes of the morphable model. Our model is trained in a self-supervised fashion by exploiting differentiable rendering and losses based on a pre-trained CLIP model. Once trained, our model jointly predicts face textures in UV-space, along with expression parameters to capture both geometry and texture changes in facial expressions in a single forward pass. We further show the applicability of our method to generate temporally changing textures for a given animation sequence.
translated by 谷歌翻译
尽管3D形状表示能够在许多视觉和感知应用中实现强大的推理,但学习3D形状先验倾向于将其限制在培训的特定类别中,从而导致学习效率低下,尤其是对于具有看不见类别的一般应用。因此,我们提出了补丁程序,该贴片可以根据多分辨率的本地贴片来学习有效的形状先验,这些贴片通常比完整的形状(例如,椅子和桌子经常共享腿)更一般,因此可以对看不见的类别类别进行几何推理。为了学习这些共享的子结构,我们学习了所有火车类别的多分辨率补丁验证者,然后通过整个贴片研究人员的注意与输入部分形状观察相关联,并最终被解码为完整的形状重建。此类基于补丁的先验避免过度适合特定的火车类别,并在测试时间对完全看不见的类别进行重建。我们证明了方法对合成造型数据的有效性以及扫描仪的挑战的实扫描对象,包括噪音和混乱,在新型类别形状的完成状态下改善了塑形距离的新型类别形状的状态,并提高了19.3%扫描仪9.0%。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
深度神经网络的3D语义分割的最新进展已取得了显着的成功,并且可用数据集的性能快速提高。但是,当前的3D语义分割基准仅包含少数类别 - 例如,扫描仪和semantickitti少于30个类别,这些类别不足以反映真实环境的多样性(例如,语义图像涵盖数百到数千个类别的类别)。因此,我们建议研究3D语义分割的较大词汇,并在扫描仪数据上具有新的扩展基准测试,其中有200个类别类别,比以前研究的数量级要多。大量的类别类别也引起了巨大的自然级别不平衡,这两者对于现有的3D语义分割方法都具有挑战性。为了在这种情况下了解更多强大的3D功能,我们提出了一种以语言为导向的预训练方法来鼓励学习的3D功能,该方法可能有限的培训示例以靠近其预训练的文本嵌入。广泛的实验表明,我们的方法始终优于我们所提出的基准测试( +9%相对MIOU)的3D语义分割的最先进的3D预训练,包括仅使用5%的 +25%相对MIOU的有限数据方案注释。
translated by 谷歌翻译
我们提出了一种新的方法来将4D动态对象前瞻灌输到学习的3D表示,通过无监督的预训练。我们观察到对象通过环境的动态移动提供了关于其对象的重要提示,因此提出了利用这种动态理解的学习学习的3D表示,然后可以有效地传送到下游3D语义场景中的改进性能。我们提出了一种新的数据增强方案,利用静态3D环境中移动的合成3D形状,并在3D-4D约束下采用对比学习,该约束将4D Imormces编码到学习的3D表示中。实验表明,我们无监督的代表学习导致下游3D语义分割,对象检测和实例分割任务的改进,而且,显着提高了数据稀缺方案的性能。
translated by 谷歌翻译
我们呈现ROCA,一种新的端到端方法,可以从形状数据库到单个输入图像中检索并对齐3D CAD模型。这使得从2D RGB观察开始观察到的场景的3D感知,其特征在于轻质,紧凑,清洁的CAD表示。我们的方法的核心是我们基于密集的2D-3D对象对应关系和促使对齐的可差的对准优化。因此,罗卡可以提供强大的CAD对准,同时通过利用2D-3D对应关系来学习几何上类似CAD模型来同时通知CAD检索。SCANNET的真实世界图像实验表明,Roca显着提高了现有技术,从检索感知CAD准确度为9.5%至17.6%。
translated by 谷歌翻译
使用可穿戴的IMU传感器,可以估算可穿戴设备的人类姿势,而无需视觉输入〜\ cite {von2017sparse}。在这项工作中,我们提出了一个问题:我们能否仅根据人类轨迹信息来理解现实世界环境中的对象结构?至关重要的是,我们观察到人类的运动和互动倾向于提供有关场景中物体的强烈信息 - 例如,坐着的人表明可能存在椅子或沙发。为此,我们提出了P2R-NET,以根据环境中观察到的人类轨迹的输入,学习以其类别类别和定向的3D边界框为特征的场景中对象的概率3D模型。 P2R-NET模拟了对象类别的对象类别的概率分布以及对象盒的深高斯混合模型,从而可以从观察到的人类轨迹中对多种,不同的,可能的对象构型模式进行采样。在我们的实验中,我们表明P2R-NET可以有效地学习可能的物体可能对象的多模式分布,即使没有任何视觉信息,也可以产生环境的各种合理对象结构。结果表明,P2R-NET始终优于Prox数据集和VirtualHome平台上的基线。
translated by 谷歌翻译
了解单个图像的3D场景是各种任务的基础,例如用于机器人,运动规划或增强现实。来自单个RGB图像的3D感知的现有工作倾向于专注于几何重建,或用语义分割或实例分割的几何重建。受到2D Panoptic分割的启发,我们建议统一几何重建,3D语义分割和3D实例分段的任务,进入Panoptic 3D场景重建的任务 - 从单个RGB图像预测相机中场景的完整几何重建图像的截图,以及语义和实例分割。因此,我们为从单个RGB图像提出了一种全新3D场景的新方法,该方法学习从输入图像到达3D容量场景表示来升力和传播2D特征。我们证明,这种联合场景重建,语义和实例分割的整体视图是有益的,独立地处理任务,从而优于替代方法。
translated by 谷歌翻译